音声情報処理 05
⾳声の標本化周波数:8kHz, 10kHz, 16kHz
⾳楽の標本化周波数:44.1kHz
フーリエ変換
「時間−振幅」を「周波数−パワー」に変換
$ s(t)を$ S(ω)に変換
↑の逆
パワースペクトルの算出
パワースペクトルでは,振幅成分に着⽬
時刻ごとに⾳響特性が変化:
原理的に不可能
短い区間の時間⻑ごとに分析
スペクトル特性が⼀定と考えられる短い時間区間を対象とする 短い時間ごとに複数の周波数構造が得られる
↓
系列⻑Nでデジタル化(離散化)されたデータ系列
$ s_k= $ s(k \Delta T)に対する周波数分析
∫→Σ
データ数Nの系列$ s_kの時間幅は$ \Delta T
時間幅(フレーム)$ \Delta TのデータがN個連なっている
$ S_n周波数幅$ \Delta Fは$ {(N\Delta T)^{-1}})となる
データ間の周波数のギャップはどの程度なのか
分析対象の窓を⻑くする( $ \Delta Tを⼤きくする)と
データ数が増える細かな周期が⾒られる
時間分解能は下がる:1フレームに相当する時間⻑が⻑くなる 荒くデータを分割することになる
⾳源と声道の分離
微細構造の除去
メル尺度MFCC